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Die voriiegende Erfindung bezieht sich auf das Codieren von sich bewe- 
genden BUdern, auf welchen ein menschliches Gesicbt dargestellt ist Sie 
befaBt sich mit dem Erzielen von geringen Ubertragungsraten, indem sie 
sich auf Bewegungen konzentriert, die mit der Sprache zusammenhangen. 
Die Erfindung gestattet auch die Synthese derartiger Bilder, urn wirkliche 
oder synthetische Sprache zu begleiten. 

Es wurde schon vorgeschlagen (siehe BeU Laboratories Record, Band 48, 
Nr. 4, April 1970, Seiten 110 bis 115, Murry Hill, US; RW. Mounts: 
"Conditional Replenishment: A Promising Technique For Video Transmis- 
sion"), die benotigte Ubertragungsrate fur ein sich bewegendes Bild zu 
verringem, indem man aufeinanderfolgende Datenblocke des Bildes 
vergleicht und Daten nur hinsichtUch derjenigen Teile des Datenblockes 
iibertragt, welche sich seit dem vorhergehenden Datenblock geandert 
haben. Die voriiegende Erfindung zielt darauf ab, die Kenntnis auszu- 
nutzen, daB beim Ubertragen eines BUdes eines Gesichts der Haupt- 
infonnationsgehalt in den Bewegungen des Mundes liegt 

GemaB eines ersten Aspektes der Erfindung ist ein Gerat zum Codieren 
eines sich bewegenden Bildes bereitgesteUt einschliefiUch eines mensch- 
lichen Gesichts, wobei das Gerat aufweist 



erne 



Einrichtung zum Empfangen von Videoeingabedaten; 



eine Einrichtung zur Ausgabe von Daten, welche einen Datenblock des 
Bildes darstellen; 

eine Identifikationseinrichtung, welche aogeordnet ist, urn im Betrieb fur 
jeden Datenblock des Bfldes denjenigen Teil der Eingabedaten zu identi- 
fizaeren, welche dem Mund des dargestellten Gesichts entspiechen, und 

a) urn in einer ersten Betriebsphase die Munddatenteile jedes Daten- 
blocks mit denen anderer Datenblocke zu vergleichen, um einen 
reprSsentativen Satz von Munddatenteflen auszuwahlen, den reprasen- 
tativen Satz zu speichern und diesen Satz auszugeben; 

b) urn in einer zweiten Phase die Munddatenteile jedes Datenblocks 
mit denen des gespeicherten Satzes zu vergleichen und zum Erzeu- 
gen eines auszugebenden Codeworts, welches anzeigt, welchem Ele- 
ment des Satzes die Munddatenteile des Datenblockes am meisten 
Shneln. 

Man wird zu schatzen wissen, daB dieses Vorgehen sich zuvor bekannten 
Wissens hinsichtlieh ;der Natur des Bildes bedient, indem speziell der 
Mund des daigestellten Gesichts identifiziert wild, und nutzt weiterhin 
die Tatsache aus, daB der Mund angemessen daigestellt werden kann 
durch einen ausgewahlten reprSsentatfven Satz von Munddatenteflen. 

GemSS eines zweiten Aspekts der Erfindung ist ein Sprachsynthetisator 
bereitgestellt mit einer Einrichtung fur die Synthese eines sich bewegen- 
den Bildes einschlieBlich eines menschlichen Gesichts, wobei der Sprach- 
synthetisator aufweist: 



a) eine Einrichtung zum Speichern und Ausgeben des Bildes eines 
Gesichts; 

b) eine Eingabe zum Speichern und Ausgeben eines Satzes von Mund- 
datenblocken (Fig. 3), die jeweils dem Mundgebiet des Gesichts 
entsprechen und eine jeweilige unterschiedliche Mundform darstellen; 

c) eine Eingabe zum Empfangen von Codes, welche Worte Oder Teile 
von zu sprechenden Worten identifizieren; 

d) eine Sprachsynmeseeinrichtung, welche auf den an der Eingabe 
empfangenen Code anspricht, urn dazu entsprechende Worte oder 
Teile von Worten zu synthetisieren; 

e) eine Einrichtung, die eine Tabelle speichert, welche derartige Codes 
mit Codeworten in Verbindung setzt, welche die Munddatenblocke 
oder Sequenzen derartiger Codeworte identifiziert; und 

f) eine Steuereinrichtung, welche auf die an der Eingabe empfangenen 
Codes anspricht, um das entsprechende Codewort oder die Code- 
wortsequenz von der Tabelle auszuwahlen und sie synchron mit der 
Synthese des entsprechenden Wortes oder Teils eines Wortes durch 
die Sprachsyntheseeinrichtung auszugeben. 

GemaB eines dritten Aspektes der Erfindung ist ein Gerat bereitgestellt 
zur Synthese eines sich bewegenden Bildes, wobei das Gerat aufweist: 

a) eine Einrichtung zum Speichern und Ausgeben des Bildes eines 
Gesichts; 



b) eine Einrichtung zum Speichern und Ausgeben eincs Satzes von 
Munddatenbiacken, die jeweils dem Mundgebiet des Gesichts ent- 
sprechen und eine jeweilige unterschiedliche Mnndform darstellen; 

c) eine Andio-Eingabe zum Empfangen von Sprachsignalen und eine 
Frequenzanalyse-Einriditung, welche auf derartige Signale anspricht 
zum Erzeugen von Sequenzen spektraler Parameter; 

d) eine Einrichtung, die eine Tabelle speichert, welche spektrale Para- 
metersequenzen mit Codeworten in Beziehung setzt, wobei Mund- 
datenblficke oder Sequenzen davon identifiziert werden; 

e) eine Steuereinrichtung, die auf die spektralen Parameter anspricht, 
um fur eine Ausgabe die entsprech enden Codeworte oder Codewort- 
sequenzen von der Tabelle auszuwahlen, 

Einige Ansfuhrungsbeispiele der Erfindung werden nun beispielhaft 
beschrieben unter Bezugnahme auf die begleitende Zeichnung. 

ist ein Blockdiagramm eines Bfldubertragungssystems einschlieB- 
lich eines Codierers und Empfangers gemaB den Ausfuhrungs- 
beispielen der Erfindung; 

zeigt ein zu ubertragendes Bild; 

zeigt einen Satz von Mundformen; 

zeigen Maskierungsfenstei; welche bei der Gesichts-, Augen- und 
Mund-Identifikation verwendet werden; 



Fig. 1 

Fig. 2 

Fig. 3 

Hg. 4, 
5 & 6 



Fig. 7 ist ein Histogramm, welches durch Verwendung der Maske von 
Fig. 6 erhalten worden ist; 



Fig. 8 

& 9 zeigen binare Bilder des Mundgebietes eines Bades; 
Fig.10 

& 11 sind GrundriB- und AufriBansichten eines Kopfes, um die Effek- 
te von Anderungen der Orientierung darzustellen; 

Fig. 12 zeigt ein Gerat zur Sprachanalyse; 

Fig. 13 ist ein Blockdiagramm eines Empfangers, der die Erfindung 
verkorpert- 

Fig. 1 zeigt ein Bildubertragungssystem mit einem Sender % einer Cber- 
tragongsverbindung 2 und einem Empfanger 3. Die verwendeten Techni- 
ken sind gleichermaSen anwendbar fflr ein Anfeeichnen, und die Uber- 
tragungsverbindung 2 konnte daher durch ein Bandaufeeichnungsgerat 
oder eine andere Einrichtung, wie z.B. einem Halbleiterspeicher, ersetzt 
werden. 

Der Sender 1 empfangt ein Eingabevideosignal von einer Quelle, wie 
zJB. einer Kamera. 

Das sich bewegende zu fibertragende Bad ist das Gesicht 5 (Fig. 2) 
eines Sprechers, dessen Sprache auch iiber die Verbindung 2 zu dem 
Empfanger Obertragen wird. Wahrend gewohnlichem Sprechen gibt es 
verhaltnismaBig wenig Anderung im groBten Teil der Gesichtsflache - d.h. 
dem nicht dem Mundgebiet angehorigen TeU, der durch den Kasten 6 in 



Fig. 2 angedeutet ist Daher wild nur ein Bild des Gesichts ubertragen. 
Weiterhin findet man, dafl Anderungen in den Mundpositionen wahrend 
dem Sprechen realistisch daigestellt weiden konnen unter Verwendung 
einer relativ Ideinen Anzahl verscfaicdener Mundpositionen, welche als 
typisch ausgewahlt weiden. Dadurch wild ein Code-Buch von Mundpo- 
sitionen erzeugt, und, wenn dies einmal zu dem Empfanger ubertragen 
worden ist, ist die einzige weitere Information, welche gesendet werden 
mufl, eine Sequenz von Codeworten, welche die aufeinanderfolgenden 
darzustellenden Mundpositionen identifizieren. 

Das beschriebene System ist ein auf Kenntms basierendes System - dJi. 
von dem Empfanger wild nach einer "Lern"-Phase angenommen, dafi cr 
das Gesicht des Sprechers und den Satz von Mundpositionen "kennf. 
Der Betrieb des Empfangers ist unumstandlich und involviert in der 
Lernphase eine Eingabe des Gesichtsbildes in einen Datenblockspeicher 
(von welchem ein Ausgabevideosignal erzeugt wild durch wiederholtes 
Auslesen) und eine Eingabe des Satzes von Mundpositionen in einen 
weiteren "Mund"-Speicher und in der CTbertragungsphase eine Verwen- 
dung von jedem empfangenen Codewort, urn die angemessenen Mund- 
bilddaten wiederzugewinnen und das entsprecbende Gebiet des Bildspei- 
chers zu uberschieiben. 

Der Senderbetrieb ist notwendigerweise tomplexen und bierbei benotigt 
die Lernphase eine Cbungssequenz von dem Sprechei; wie folgt: 

1) der erste Datenblock wird gespeichert und in passender Weise 
codiert (zJB. unter Verwendung kbnventioneller Redundanzverringe- 
rungstechniken) zu dem Empfanger ubertragen. 



2) Das gespeicherte Bild wird analysiert, um (a) den Kopf des Spre- 
chers zu identifizieren (so daS der Kopf in zukunftigen Datenblficken 
trotz Kopfbewegungen abgeglichen werden kann), und um (b) den 
Mund zu identifizieren - d-h. definieren des Kastens 6, welcher in 
Fig. 2 gezeigt ist. Die Kastentoordinaten (und Dimensionen, falls 
nicht festgelegt) werden zu dem Empfanger ubertragen. 

3) Aufeinanderfblgende Datenblocke der Obungssequenz werden analy- 
siert, um den Mund abzugleichen und dadurcb die momentane 
Position des Kastens 6 zu definieren und den Inhalt des Kastens 
(des "Mundbildes") mit dem ersten und jedem zuvor ausgewahlten 
Bild zu vergleichen, um einen Satz ausgewahlter Mundbilder auf- 
zubauen. Dieser Satz von (in Fig. 3 dargestellten) Bfldern wird bei 
dem Sender gespeichert und zu dem Empfanger ubertragen 

Die Obertragungspbase bendtigt dann: 

4) ein Analysieren aufeinanderfolgender DatenblScke (wie in (3) oben), 
um die Position des Kastens 6 zu identifizieren; 

5) ein Vergleichen des Inhalts des Kastens in dem momentanen Daten- 
block mit den gespeicherten Mundbildern, um dasjenige des Satzes 
zu identifizieren, welches ihm am nachsten ist; woraufhin das ent- 
sprechende Codewott ubertragen wird. 

Nimmt man eine Datenblockrate von 25 pro Sekunde an und ein "Code- 
buch- von 24 Mundformen (Ah. einen 5-Bit Code), wurde die ben5tigte 
Datenrate wahrend der Obertragungsphase 125 Bits/s betragen. 
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Die unter Verwendung des grundlegenden beschriebenen Systems erzielte 
Bmpfangeranzeige stellt sich als allgemein zufriedenstellend heraus v aber 
ist etwas uiuiaturlich, hauptsachlich well (a) der Kopf feststehend er- 
scheint und (b) die Augen unver&adert blexben (genau gesagt, der Spre- 
i 5 cber scheint niemals zu zwinkern). Dem ersten dieser Probleme kann 
abgeholfen werden, indem man eine zufallige Kopfbewegung bei dem 
Ernpfanger einfiihrt; Oder dutch Abgleichen der Kopfposition bei dem 
Sender und Ubertragen von angemessenen Koordinaten zu dem Ernpfan- 
ger. Die Augen kflnnten ubertragen werden unter Verwendung der 
10 gleichen Prinzipien wie sie fur den Mund angewendet werden; obwohl 
hier die Grofle des "Codebuches" viel kleiner sein kann. Ahnliche 
Bemerkungen treffen fur das Kinn und Gesichtszuge zu. 

Die Implementierung der oben aufgezahlten Senderschritte wird nun in 
u etwas detaillierterer Weise betrachtet, unter Annahme eines monochro- 
men Quellbildes von 128x128 pel Auflosung eines Bildes von Kopf und 
Scbultern, Das erste Problem liegt im Erkennen von Gesichtsmerkmalen 
und deren Festlegung aiif dem Gesicht. Andere Probleme bestehen im 
Bestimmen der Orientierung des Kopfes und der sich andernden Form 
20 des Mtindes sowie der Bewegung der Augen. Das von Nagao voige- 
schlagene Verfahren (M. Nagao - "Picture Recognition And Data Structu- 
re-, Graphic Languages - EX). Nake & Rosenfield, 1972) wird vorge- 
schlagen. 

25 Nagaos Verfahren involviert die Er2eugung einer binaren Darstellung des 
Bildes mit einem Kantendetekton . Dieses binare Bild wird dann analy- 
siert, indem ein Fenster an ihm herunterbewegt wird und die Kantenpixel 
in jeder Spalte des Fensters summiert werden. Die Ausgabe des Fen- 
sters ist der Satz Zahlen, in welchem grofle Zahlen Starke vertikale Kan- 

so ten darsteUen. Daraus konnen Merkmale, wie z.B. die Spitze und die 



Seiten des Kopfes, gefolgt von den Augen, der Nase und dem Mund 
anfanglich erkannt werden. 



Der Algorithmus fahrt fort und bestimmt den UmriB des Kiefers und 
arbeitet sich dann an dem Gesicht hoch, um die Positionen von Nase, 
Angen und Seiten des Gesichts genauer festzulegen. Ein in den Algo- 
rithmus eingebauter Ruckkoppelungsprozess gestattet eine Wiederholung 
von Teilen der Suche, falls ein Febler erfafit wird. Auf diese Art und 
Weise wird die Erfolgsrate stark verbessert. 

Ein Programm wurde unter Verwendung des Algorithmus von Nagao 
geschrieben, welches Rechtecke um die als Augen und Mund identifizier- 
ten Merkmale zeichnet Es folgen Details dieses Programms: 

Ein Laplace-Operator wird angewandt zusammen mit einem Schwellwert, 
um ein binares Bild gleicher Auflosung zu geben. Kantenpixel werden 
schwarz, andere weiB. 

Ein Fenster der Dimension 128 pel x 8 Zeilen ist an dem Oberteil des 
binaren Bildes positioniert. Die schwarzen Bildelemente bzw. Pixels bzw. 
pels in jeder Spalte werden summiert, und das Ergebnis wird als eine 
Eingabe in einer Anordnung von 128 x 32 Elementen (Array 1) gespei- 
chert. Das Fenster wird um vier ZeUen jedesmal bildabwarts bewegt 
und der Prozess wiederholt Das Fenster wird insgesamt 32 mal neu 
positioniert, und die Anordnung von 128 x 32 Elementen wird gefullt 
(Fig- 4). 

Eine Suche wird durchgeffihrt durch die Reihen von Array % und zwar 
beginnend von dem Oberteil des Bildes, um die Seiten des Kopfes zu 
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lokalisieren. Da dies starke vertikale Kanten sind, werden sie durch 
hohc Werte in Array 1 identifiziert 

Die erste von dex linken Seite des Bildes lokalisierte Kante wird aufge- 
5 nommen, urid ahnlich geht man fur die rechte Seite vor. Der Abstand 
zwischen diesen Punkten wird gemessen (Kopfbreite), und falls dieser 
Abstand ein Kriterium ubersteigt, wird eine Suche nach Aktivitat zwi- 
schen diesen beiden Punkten durchgefuhrt, welche die Augen anzeigen 
kann. 

10 

Die Augen werden gefunden, indem man eine eindimensionale Maske 
verwendet, wie in Fig. 5 gezeigt, welche zwei Schlitze hat, die den durch 
einen Spalt fur die Nase getrennten Augen entsprecheru Die Breite der 
Schlitze und ihr Abstand wird so ausgewahlt, daB sie proportional zu der 
15 gemessenen Kopfbreite ist. Die Maske wird an einer Reihe innerhalb 
der Kopfflache entlang bewegt Die Zahlen in Array 1, welche inner- 
halb der Angenschlitze fallen, werden summiert, und von diesem Ergeb- 
nis werden die Zahlen in dem Nasenschlitz subtrahiert. Das Endergeb- 
nis ist ein empfindlicher Indikator von Aktivitat aufgrund der Augen. 

20 

Der Maximalwert entlang einer Reihe wild aufgezeichnet zusammen mit 
der Position der Maske, wenn dieses Maximum gefunden wird. Die 
Maske wird dann nach unten bewegt zu der nachsten Reihe und der 
Prozess wiederholL 

.25 

Aus dem Satz von Maxhnalwerten wird das Gesamtmaximum gefunden. 
Die Position dieses Maximums wird als Angabe der vertikalen Position 
der Augen betrachtet Verwendet man die horizontale Position der 
Maske, wenn dieses Maximum gefunden wurde, kfinnen wir den Mittel- 
ao punkt des Gesichts abschatzen. 
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Danach wird ein 15 Pixel-weites Fenster (Fig. 6) auf das binare BUd 
angewendet. Es erstreckt sich von einer Position genau unternalb der 
Augen zu dem Uatertefl des Bildes und ist auf der Mitte des Gesichts 
zentriert. 

Die schwarzen pels in jeder Reihe des Bildes werden summiert, und die 
Werte werden in eine eindimensionate Anordnung (Array 2) eingegeben. 
Falls diese Anordnung als ein Histogranun angezeigt wird, werden Merfc- 
male, wie der Unterteil der Nase, der Mund und der Scfaatten unter der 
unteren lippe, deutUch als Spitzen sichtbar (Fig. 7). Die Verteilung 
dieser Spitzen wird verwendet, urn die Position des Mundes festzulegen. 

Die Kastenposition wird als zentriert auf dem Zentrum des Gesichts 
bestimmt, wie oben definiert, und auf dem Zentrum des Mundes (Reihe 
35 in Fig. 7). Fur die gegebene Auflosung kann eine passende Kasten- 
groBe eine Breite von 40 x einer H5he von 24 pels sein. Das nachste 
Stadium besteht darin, sicherzustellen, daft die Identifizierung des Mundes 
(Kastenposition) in dem ersten Datenblock und wahrend der Lern- (und 
trbertragungs-)Pbase insistent ist - dJi., daft der Mund immer innerhalb 
des Kastens zentriert ist. Man findet, daft eine Anwendung des Algorith- 
mus von Nagao auf jeden Datenblock einer Sequenz dagegen einen 
beachtlichen FeMer bei der Registrierung des Mundkastens von Daten- 
block zu Datenblock aufweist 

Eine Ldsung dieses Problems wurde gefunden, indem man den Algorith- 
mus nur auf den ersten Datenblock anwendet und dann den Mund 
Datenblock fur Datenblock abgleicht Dies wird erreicht, indem man 
den Mund in dem ersten Datenblock der binaren Sequenz als eine 
Schabione benutzt und mit jedem der nachfolgenden Datenbiocke in dem 
obigen binaren BUd auto-korreliert Die Sucbe wird begonnen in dersel- 
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ben relativen Position in dem nachsten Datenblock, und die Masks wild 
jedesmal urn ein Pixel bewegt bis ein Iokales Maximum gefunden ist 

Das Verfahren wuide verwendet, urn eine Sequenz zu erhalten unter 
Verwendung des korrekten Mundes, wobei aber der Rest des Gesichts 
von dem ersten Datenblock kopiert wird. Diese verarbeitete Sequenz 
lieS man laufen, und sie zeigte etwas Aufzeichnungsflackera, aber dieser 
Fehler betrug nur ungefahr ein Pixel, was das Beste ist, das man errei- 
chen kann ohne Sub-Pixelinterpolarion. 

Typische binare Bilder der Mundflache (Mund offen und Mund gescblos- 
sen) sind in Fig. 8 und 9 gezeigt 

Nur ein kleiner Satz von Mundern von der gesamten moglicben Anzahl 
in der gesamten Sequenz kann in der NachscblagetabeUe aus offensicht- 
Uchen Griinden gespeichert werden. Dies benotigt. dafl die Form eines 
Mundes erkannt wird und ob sie ahnlich einer Form ist, welche zuvor 
aufgetreten ist oder nicm, Neue Mundpositionen wurden dann in der 
Tabelle gespeichert werden. 

Die Ahnlichkeit oder der Unterscbied eines Mundes zu vorhergehend 
auftretenden Mundern muB daher auf einem Quannsierungsprozess aufge- 
baut werden, urn die Anzahl der Eintragungen in die Tabelle zu begren- 
zen. 

Das Verfahren, wodurch dies erreJcht wild, besteht wie im folgenden 
darin, dafl die gesamte Verarbeitung auf Grauskalen-Mundbildern duicb- 
gefuhrt wird anstelle der obigen binaren Version. 
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Das Mundbild von dem ersten Datenblock wind als die erste • zu Beginn 
die einzige - Eingabe in einer Nachschlagetabelle gespeichert. Das 
Mundbild von jedem Datenblock in der Obungssequenz wird dann ver- 
arbeitet, indem m*™ es (a) mit jeder Eingabe in die Tabelle vergleicht 
durch Subtrabieren der individuellen pel-Werte und Summieren der 
absoluten Werte dieser Differenzen fiber dem Mundkastengebiert; indem 
man (b) die Summe mit einem Schwellenwert vergleicht und, falls der 
Schweilenwert uberschritten wird, man dieses Mundbild als eine Neuein- 
gabe in die T&belle eingibt. 

Dieses besondere Verfahren zum AufEnden der Summe der absoluten 
Differenzen ist jedoch sehr empfanglich bzw empfindlich fur eine Bewe- 
gung. Zum Beispiel warden zwei identische Bilder, bei denen das zweite 
urn nur ein Pixel nach links verschoben worden ist, einen sehr niedrigen 
Wert fur die Summe erzeugen, wohingegen diese zwei Bilder als iden- 
tisch angesehen werden solltecu Falls ein kleines AusmaB an Bewegung 
innerhalb des gesamten Abgleichs gestattet wird, urn zu versuchen, die 
Tatsache zu kompensieren, daB die Summe dramatisch abfallt, falls das 
Bild nur um ein Pixel verschoben worden ist, dann kann eine Verringe- 
rung der Grofle der Nachschlagetabelle erzielt werden ohne einen ent- 
sprechenden Verlust von Mundfonnen. Dies kann durchgefuhrt werden, 
wenn bei jedem Datenblock der Mund in dem momentanen Datenblock 
dreimal mit jeder der Eintragungen in dem Codebuch verglichen wird - 
und zwar bei der momentanen Position, nach links um ein Pixel ver- 
schoben, und nach rechts um ein Pixel verschoben, und die minimale 
Summe in jedem Fall gefunden wird Das Ergebnis, welches die kleinste 
minimale Summe erzeugt, zusammen mit dem Wert der Verschiebung in 
die X-Richtung wird aufgezeichnet. Diese Bewegung konnte naturlich 
sowohl in der X- als auch der Y-Richtung durchgefuhrt werden, aber 
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man stellte fest, dafl die Mehrzahl der Bewegungen in der X-Richtung 
stattfinden. 

Falls die gewflnschte TabellengroBe uberschritten wird, oder die Anzahl 
der Eintragungen, welche wahrend der tfbungssequenz erzielt werden, 
wesentlich kleiner ist als die TabellengroBe, dann wild der Schwellenwert 
entsprechend eingestellt und die Obungsphase wiederholt; urn eine uber- 
mSflige VerzOgerung zu vermeiden, konnen solche Bedingungen von der 
Erfassungsrate vorheigesagt werden. 

Sobald die Tabelle einmal aufgebaut ist, kann die Obertragungsphase 
beginnen, in welcher jedes der aufeinanderfolgenden Mundbilder ver- 
glichen wird - wie in (a) oben beschrieben nnd zwar mit all denjeni- 
gen der gespeicherten Tabelle, nnd ein Codewort, welches die Eingabe 
identifiziert, die das geringste Summiernngsergebnis ergab, wird dann 
ubertragen. 

Die dafur benongte Berechnnng ist umfangreich, kann aber verringert 
werden, fells man ein alternatives Suchverfabren ubernhnmt. Die ein- 
fachste Alternative ware, daB man, anstatt alle Munder in der Nach- 
scblagetabelle anzusefaen und die minimale Summe zu finden, den ersten 
verwendet, der eine Summe hat, welche geringer ist als die Schwelle. 
Fur sich allein ware dies gewiB schneller, doch wOrde es wahrschemlich 
darnnter leiden. umfengreich verzerrt zu sein, falls die Reihenfolge, in 
der die Tabelle abgetastet wird, festgelegt ware. Daber muB die Rei- 
henfolge, in der die Tabelle abgetastet wird, variiert werden. Eine bevor- 
zugte Variation benotigt, daB man die Reihenfolge aufeeichnet, in wel- 
cher die Munde von dem Codebuch erscheinen, eine Art Rangreihenfol- 
ge. Wenn z3. der vorhergehende Datenblock den Mund 0 von der 
Tabelle verwendete, dann tastet man die Tabelle fur den momentanen 
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Datenblock ab, wobei man mit der Eingabe beginnt, welche am meisten 
nach dem Mund 0 in der Vergangenheit aufgetreten ist, sagen wir Mund 
5. Wenn die Summe der absoluten Differenzen zwischen dem momenta- 
nen Datenblock und Mund 5 weniger ist als die Schwelle, dann wird 
Mund 5 ausgewahlt, urn den momentanen Datenblock darzustellen. Falls 
sie groBer ist als die ScbweUe, bewegt man sich weiter zu dem nachsten 
Mund in dem Codebuch, welcber in dem Codebuch nach Mund 0 am 
zweuhaufigsten erscbienen ist, und so fort. Wenn ein Mund schlieBIich 
ausgewahlt wird, wird die Aufzeichnung des ausgewahlten Mundes auf 
den neuesten Stand gebracht, um die momentane Information zu bemhal- 
ten. 

Wahlweise konnen Mundbilder mit einem niedrigsten Summierungsergeb- 
ois fiber einen eingesteUten Wert als nicht in dem Satz vorhandene 
Formen erkannt werden und einen dynamischen Datenerneuerungsprozess 
einleiten, wobei ein zusatzUches Mundbild an die TabeUe angehangt wird 
und an den Empfanger wahrend der Obertragungsphase gesendet wird. 
Bei den meisten Umstanden ware eine Ubertragung eines "neuen" Mun- 
des nicht schnell genug, um seine Verwendung fur den ihn verursachen- 
den Datenblock zu gestatten, sondern er stunde fur zukfinftige Erschei- 
nungen dieser Form zur Verfugung. 

In diesem Fall muB man aufpassen, daB der eingesteUte Wert nicht zu 
tief ist, denn dies kann dazu fuhren, daB neue Munder wahrend der 
ganzen Sequenz in die NachschlagetabeUe gebracht werden. Und dies ist 
nichts weiter als eine BUd-Teilabtastung, was offensichtlich ein vernunfti- 
ges Ergebnis erzeugen wiirde, was aber ein Codebuch benotigen wurde, 
dessen GroBe proportional ist zu der Lange der gerade verarbeiteten 
Sequenz. 
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Man kann zu dem eingestellten Wert durch wiederholtes Probieren 
gelangen. Offenbar ware es wunschenswert, daB diese Schwelle automa- 
tisch ausgewcrtet werden k6nnte oder wenn man darauf vdfflg verzichten 
kdnnte. Die Summe aUer absoluten Differenzen zwiscben Datenblocken 
ist immer ein positives Mafl, und die Nachschlagetabelle stellt daher 
einen metrischen Raum dar. Man kann sich jeden Mund in der Nach- 
schlagetabelle so vorstellen, als ob er in einem mehidimensionalen 
metrischen Raum existierte, und jeder Datenblock in einer Sequenz Uegt 
in einer Anhaumng urn einen dieser Codebuch-Munder berum. Es gibt 
verscbiedene Algoritbmen, z.B. den Linde-Buzo-Gray-AIgoritbmus, die 
verwendet wenJen konnten, urn den optimalen Satz von Miindern zu 
finden. Diese Algorithmen verwenden den Satz von Datenblocken in der 
Sequenz als einen Ubungssatz und verwenden langwierige Suchen, um 
den Febler zu minimieren und den optimalen Satz zu finden. Dem ist 
vorzuziehen, einen "reprasentativen" Satz von Mundern zu finden, welche 
sub-optimal sind, aber welche schneller gefunden werden konnen als der 
optimale Satz. Um dies zu tun, ist es notwendig, die Anzahl der zu 
verwendenden Munder anzugeben, und dann die benotigte Anzahl von 
Mundern von der Ubungssequenz auszuwahlen. Die Nachschlagetabelle 
kann wahrend der Ubertragungspbase noch auf den neuesten Stand 
gebracht werden, wobei der" gleiche Algoritbmus verwendet wird, wie zum 
Uben, abef die gesamte Anzahl der Munder in der Tabelle wird kon- 
stant bleiben. 

Die Auswahl von Mundern folgt einer Grundregel - falls der minimale 
Abstand (Abstand kann verwendet werden, da es ein metrischer Raum 
ist) zwischen dem momentanen Datenblock und einem der Munder in 
der Tabelle grdfler ist als der inimmale Abstand zwischen diesem Mund 
. in der Tabelle und irgendeinem anderen Mund in der Tabelle, dann 
sollte der momentane Mund in der Tabelle aufgenommen werden. Falls 
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er geringer ist, dam, soil* dieser Mund einfach dutch den nSchstgelege- 
nen Mund der Tabelle dargestellt werien. Wenn ein neuer Mund m 
die Tabelle wShrend einer Obenragungsptoe aufgenommen werden sou. 
dam wird der zn enBernende Mund naeh der fblgenden Kegel ausge- 
wfflt - Finden des Paars von Muuden in der Nachschlagetabelle, welche 
am nachsten zueinander sind und Wegwerfen etaes der beiden, vorzugs- 
weise desjenigen, der am nachsten zu dem nenen Mund hegt 

Wenn ein neuer Mund in die Tabelle eingegeben wird, dann hat er 
Hmerweise keine Vorgesehichte, womit er die anderen Mflnder in das 
Codebueh einordnen konme - jeder wird naeh diesem nenen Mund 
mentis aufgeueten sen, Wenn der nachste Datenblock in der Seouenz 
angetroflen wird. wurde die NachscblagetabeUe der Reiheniblge ^nach 
abgetastet werden, wobei die neue Hngabe zale,zt erreich« wird. Dtese 
„ neue Eingabe ist jedoch die wahrschemlichste Auswahl, da Munder dazu 
peigen. in Anhaufungen zn erscheinen, insbesondere wenn gerade em 

.„ ,_, co oagt man die Reihenfclge an, so 
neuer Mund erzeugt worden ist. so pam 

dafl der neue Mund als erstes abgetastet wild. 

» Das oben bescbriebene Cbemagungssystem kann in einem BUdtelefonsy- 
st em verwende, werden, welehes eine Standardtele^mdung - 
wendet; urn der Lempbase getecht an werden, wilrde das Bdd mcht 
umniuemar am Empfinger etscbeinen. Der anflngUcben Verschtebm* 
Mgend - viefleicht 15 Sekunden, wenn man eine uicht.hg.tale XJbertra- 

25 . „ des Gesiehts anmmmt , w*me das bewegte Bild ttberttagen und 
im Echtzeitverfahren dargestellt werden. 

Eme feste MundObeHappuug kann aur einem Gesicb, verwende, werden, 
we ,chea von der naeb vorne zeigenden Position abweicb, mils dte Ddm- 
x ren2 mcbt zu groB ist Es ist auch klat, daB zum Anzeigen allgememer 
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Kopfbewegungen, wie z.B. Nicken oder Schfitteln, man das Gesicht so 
darstellen muB, wie man es von einer Anzahl verschiedener Winkel sieht. 
Ein dargestellter Kopf ist unuberzeugend, wenn nicht cine allgemeine 
Bewegung vorliegt, sei es auch mir eine wahllose Bewegung. 

In einem System wie dem beschriebenen muflten verschiedene Ansichten 
des Gesichtes ubertragen und bei dem Empfanger gespeicbert werden. 
Falls ein kompletter Satz von Daten fur jede unterschiedlicbe Gesichts- 
position gesendet wurde, wurde dies eine excessive Kanal- und Speicher- 
kapazitat erfordem. Ein mSgUcher Weg urn dieses Problem herum ist 
in Fig. 10 gezeigt 

Das Erscheinen des Gesichtes in der frontalen Position wird dargestellt 
durch die Projektion (xl - x5) in der Ebene P. Wenn der Kopf leicht 
auf eine Seite gedreht wird, wird sein Erscheinen fur den Beobachter 
nun dargestellt durch (xl* x5') in Ebene P*. Wenn die Beleuchtung 
des Gesichtes ziernlich isotropisch ist, darm sollte eine zweidimensionale 
Transformation (xl - x5) eine gute Annaherung sein an (xl' - x5')- 

Die wichtigen Unterschiede wurden an den Seiten des Kopfes auftreten, 
wo neue Flachen enthullt oder verdeckt werden, in .ahnUcher Weise bei 
der Nase. Damit kann durch tJbertragung eines Codes, der die Ande- 
rung der Orientierung des Kopfes als auch einen kleinen Satz von 
Unterschieden gibt, der ganze Kopf rekonstmiert werden. Die Differen- 
zen fur jede Kopfposition kfinnen gespeichert werden und in der Zukunft 
verwendet werden, wenn die gleiche Position identifiziert wird. 

Das Konzept, Pseudorotationen zu erzeugen durch 2-D Transformationen 
wird dargestellt mit Bezug auf das "Gesichf-Bild yon Fig. 11. 
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Simulieren des Effektes von vertikal-Achsenrotation in einer Richtung, so 
daB die Nase sich urn eine Verschiebung S von links nach rechts (wie 
betrachtet) bewegt: 

(1) Punkte links von (XI - XI') bewegen sich nicht. 

(2) Punkte auf der Unie (X2 - X2') bewegen sich nach rechts mit den 
Verschiebungen S/2. Pas Gebiet (XI, XT, X2, X2') wird entspre- 
chend gestreckt.) 

(3) Punkte auf der linie (X3 - X3') bewegen sich nach rechts mit 
Verschiebung S. (Das Gebiet (X2, X2', X3, X3') wird gestreckt) 

(4) Punkte auf der linie (X4 - X4') bewegen sich nach rechts um eine 
Verschiebung S. (Das Gebiet (X3, X3% X4, X4') wird nach rechts 
verschoben.) 

(5) Punkte auf der linie (X5 - X5') bewegen sich nach rechts; Ver- 
schiebung S/2. (Das Gebiet (X4, X4\ X5, X5') wird geschrumpft.) 

(6) Punkte rechts von der linie (X6 - X6') bewegen sich nicht. (Das 
Gebiet (X5, X5, X6, X6') wird geschrumpft.) 

Zweidimensionale graphische Transfonnationen konnten Verwendet werden 
in einem System fur eine Standardvideo-Konferenz-Anwendung. In 
diesem System wurden menschUche Gegenstande erkannt werden und von 
sich nicht bewegenden Vordergrund- und Hintergrundgegenstanden isoUert 
werden. Der Vordergrund und der Hintergrund wurden in Speichern bei 
verschiedenen hierarcbischen Niveaus abgespeichert werden je nach dem, 
ob sie in der Lage waren, sich bewegende Gegenstande zu verdecken. 
Sich relativ wenig verandernde bewegende Korper, wie zB. Rumpfe, 
wurden bei einem anderen Niveau gespeichert werden als sich schneller 
andernde Tefle, wie z.B. die Anne und der Kopf. 
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Das Betriebspriiizip des Systems wurde von dem tfbertragungsende 
verlangen, dafl es die Bewegung verschiedener segmentierter Teile identi- 
fiziert und Bewegungsvektoren entsprechend sendet. Diese wurden von 
dem Empfanger verwendet, urn eine Vorhersage fur jeden Teil in dem 
nfichsten Datenblock zubilden. Die Differenzen zwischen der Vorhersa- 
ge und dem wahren Bad wurden gesendet werden wie in einem her- 
kommlichen Bewegungskompensationssystem. 

Das System sollte eine hohe Datenkompression ohne eine nennenswerte 
Bfldverschlechterung aus mehreren Grunden erzielen; 

1) Wenn ein Gegenstand verdeckt ist und dann wieder enthullt wird, 
mussen die Daten nicht erneut ubertragen werden. 

2) Fur sich relativ wenig anderade Korper, wie z3. Riimpfe, konnte 
eine sebr gute Vorhersage gebildet werden unter Verwendung von 
weniger umfangreicben graphischen Transfonnationen, z3. TVanslatio- 
nen und Rotationen in der Bildebene und Maflstabsanderungen. 
Die Differenzen zwischen der Vorhersage und dem Wahren sollten 
kiein sein. 

3) Fur die sich schneUer bewegenden Gegenstande sollte eine gute 
Vorhersage burner noch moglich sein, obwohl die Differenzen grSBer 
waren. 

4) Es konnte subjektiv wichtige Eigenarten in der Szene unterschiedUch 
von weniger wichugen Eigenarten behandeln. Zum Beispiel kSnnten 
Gesichter starker gewichtet werden als sich schnell bewegende Anne. 

Ein zweites Ausfuhningsbeispiel der ErBndung bezieht sich auf die 
Synthese eines sich bewegenden BUdes eines Lautsprechers, um syntheti- 
sierte Sprache zu begleiten. Zwei Typen von Spracfasynthese werden 
betrachtet: 
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a) Synthese eines begrenzten Wortschatzes, wobei digitalisierte Dar- 
stellungen vollstandiger Worte gespeicbert werden, und die Worte 
unter Handsteuerung, Oomputersteuerung oder eine andere Eingabe 
abgerufen und regeneriert werden. Die Art der Speicherung, ob 
PCM oder zJ5. als Formatparameter, beruhrt die Bildsynthese nicht. 

b) AUophonsynthese, wobei jedes Wort synthetisiert werden kann dutch 
Verwendung von Coden, die auszusprechende Klange darsteUen; 
diese Code kOnnen direkt erzeugt werden vom Eingabetext (Text-zu- 
Sprache-Systeme). 

In jedem Fall besteht die Gesichtssynthese aus zwei Stufen; einer 
Lernphase, welche der oben beschriebenen entspricht, und einer Syn- 
thesephase, in welcher die entsprechenden Mund-Codeworte erzeugt 
werden, urn die synthetisierte Sprache zu begleiten. 

Betrachtet man Option (a) zuerst, wird das Sprachvokabular gewohnlich 
erzeugt, indem man die Auflerungen eines einheimischen Sprechers 
aufceicbnet, und es wird oft geschickt sein, das Gesicht des gleichen 
Sprechers zu verwenden. Wird ein anderes Gesicht gewunscht oder um 
eine Sichteinrichtung zu einem esistierenden System hinzuzuffigen, kann 
der Ersatzsprecher zusammen mit einem erneuten Abspielen des Sprach- 
vokabulars sprechen. Fur jeden Fall ist das Vorgehen das gleiche. Die 
Lernphase ist die gleiche wie die oben beschriebene, dabingehend, daB 
das System den benotigten Gesichtsdatenblock und die Mundnachschlage- 
tabelle erfaBt Es muB jedoch auch die Sequenz von Muhdpositions- 
Codeworten entsprechend jedem Wort aufeeichnen und diese Sequenz in 
einer weiteren TabeHe speichern (die Mundcodetabelle). Es wird hier 
bemerkt, daB dieses Vorgehen nicht im Echtzeitverfahren ausgefuhrt 
werden mufi und bietet daher die Moglichkeit, die Mundsequenzen fur 
) jedes Wort zu optimieren. 
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In der Synthesephase weiden an den Synthetisator bereitgestellte Ein- 
gabecodes nicht nor dazu verwendet, Sprachdaten wiederzugewinnen nnd 
sie an eine Sprachiegenerierungseinheit oder einen Synthetisator weiterzu- 
leiten, sondern auch, urn die Mundecodeworte wiederzugewinnen und 
diese synchron mit der Sprache zu einem Empfanger zu ubertragen, 
welcher die sicb bewegenden Bilder rekonstruiert, wie oben mit Bezug 
auf Rg. 1 beschrieben. Alternate konnten die Empfangerfunktionen 
lokal durchgefuhrt weiden fur eine lokale Anzeige oder fur eine Weiter- 
ubertragung eines Standard-Videosignals. 

In dem Fall der Allophonsynthese (b) wild wiederum ein echtes Gesicht 
ben6tigt, und die zuvor bescbriebene Leraphase wird durchgefuhrt, um 
die Gesichtsbild- und Mundbild-Tabelle zu erzeugen Hier ist es jedoch 
notwendig, Mundpositionen mit individueUen Phonemen (di. Teilen von 
Worten) zu korrelieren, und daher muB der Besitzer des Gesichtes 
gleichzeitig mit deren Erzeugung durch den Sprachsynthetisator einen 
reprasentativen Textabschnitt auflern einschlieSUch zumindest eines Bei- 
spiels jedes Allophons, welches von dem Sprachsynthetisator bergestellt 
v/erden kann. Die erzeugten Codeworte werden dann in eine Mund- 
nachschlagetabene eingetragen, in welcber jeder Eintrag einem Allophon 
entspricht. Die meisten Eingaben werden aus mebr als einem Codewort 
bestehen In einigen Fallen konnen die Mundpositionen entsprechend 
eines gegebenen Pbonems in Abhangigkeit von den vorheigehenden oder 
folgenden Phonemen variieien, und dies kann auch berucksichtigt werden. 
Eine Wiedeigewinnung der Sprach- und Videodaten findet auf eine 

. ahnUche Weise statt wie die oben beschriebene fur die "Ganzwort"- 
Synthese. 

Man beachte, daB in dem Ausfuhrungsbeispiel der "synthetischen Sprache" 
der Gesichtsdatenblock, die MundbfldtabeUe und die MundposMons- 
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Codeworte wie in dem oben beschriebenen tJbertragungssystem zu einem 
entfernten Empfanger ubertragen werden konnen zum Erzeugen eines 
sich bewegenden Bildes, aber unter gewissen Umstanden, wie z.B. einer 
visuellen Anzeige zum Begleiten einer Computerausgabe synthetischer 
Sprache, kann die Anzeige lokal sein, und daher kann die "Empfanger"- 
Verarbeitung auf dem gleichen Gerat duxchgefuhrt weiden wie die 
Tabellen- und Codeworterzeugung* Alternativ kann das synthetisierte 
Bild lokal erzeugt werden und ein konventionelles Videosignal zu einem 
entfernten Monitor ubertragen werden. 

Die Frage der Synchronisation wird nun weiter betrachteL 

Eine typische Text-zu-Sprache-Synthese weist die folgenden Schritte auf: 

(a) Umwandlung von einfacher Texteingabe zu phonetischer Darstellung. 

(b) Umwandlung phonetischer zu niederphonetischer Darstelhmg. 

(c) Umwandlung von niederphonetischen zu Formatparametem. Eine 
typische Parametereineuerungs- bzw. update-Periode ware 10 ms. 

Dieses AusmaB an Verarbeitung involviert ein MaB an VerzSgerung; 
weiterhin haben einige Konversionsstufen eine inharente Verzogerung, da 
die Umwandlung vom Zusammenhang abh2ngt (z3. wo der Klang eines 
bestimmten Buchstabens beeinfluflt wird durch diejenigen, die ihm fol- 
gen). Daher involviert der Syntheseprozess, dafi man Warteschlangen- 
und Zeitgabenotwendigkeiten sorgfaltig in Betracht zieht, urn sicherzustel- 
len, daB die synthetisierten Iippenbewegungen mit der Sprache synchroni- 
siert werden. 

Wo (wie oben behandelt) die visuelle Synthese die AUophondarsteUung 
fur die Eingabedaten von dem Sprachsynthetisator verwendet und, falls 
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der Spradisyntheseprozess von diesem Niveau abwarts vorhersagbare 
VerzSgerungen involviert, kann eine passende Zeitgabe einfach dadurch 
sichergestellt werden, indem man entsprechende Verzogerungen in der 
visuellen Synthese einfuhrt 

Fin alternativer Vorschlag besteht darin, Kennmarken in den Sprachdar- 
stellungen einzufflgen. Dies kOnnte die Option gestatten, daB man 
Mundpositionen in den Quellentext programmiert, anstatt von (oder 
zusatzlich zu) der Verwendung einer Nachschlagetabelle zum Erzeugen 
der Mnndpositionen von den Allophonen. Bei beiden Arten kdnnten 
Kennmarken, welche die prazisen AugenbUcke angeben, bei denen Mund- 
positionen wechseln, in den Sprachdarstellungen aufrechterbalten werden 
bis hinab (sagen wir) zu dem niederphonetischen Niveau. Der Sprach- 
synthetisator erzeugt eine Warteschlange niederpbonetischer Codes, welche 
dann zu Fonnatparametern umgewandeit werden und zu der Formatsyn- 
thetisator-Hardware weitergeleitet werden; wenn die Codes von der War- 
teschlange "abgezogen" werden, wird jede Kenmnarke, nachdem der ibr 
vorhergehende Text gesprocben worden ist, zu dem visueUen Synthetisator 
weitergeleitet, urn den ensprechenden Mundpositionswechsel zu synchroni- 



sicrerL 



Ein drittes Aosfubrungsbeispiel der Erfindung betrifft die Erzeugung eines 
sich bewegenden Gesicbts, urn die Eingabe echter Spracbe zu begleiten. 
Es wird wiederum ein Ersaizsprecber benotigt, urn das Gesicbt und die 
Lernphase bereitzustellen, denn die Erzeugung der Mundbildtabelle 
gescbieht wie zuvor. Die Erzeugung der Mundcodetabelle hangt von der 
Einrichtung ab, welche verwendet wird, urn die eingegebene Spracbe zu 
analysieren; eine Option ist jedoch die Verwendung von Spektrumsanaly- 
se, urn Sequenzen spektraler Parameter zu erzeugen (eine wohlbekannte 
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Technfle), wobei die Codetabelle dazu dient, diese Parameter und Mund- 
bilder zu korrelieren. 

Em Gerat far eine derartige Sprachanalyse ist in Fig. 12 gezeigt. Jedes 
Vokalphonem hat ein unterschiedliches visuelles Erscheinungsbild. Das 
visuelle Korrelationselement des auditiven Phonems wird ein Visem 
genannt (K W Berger - Speechreading: Principles and Methods. Bald- 
mote: National Educational Press, 1972, pages 73-107). Viele der Kon- 
sonanten haben jedoch das gleiche visuelle Erscheinungsbild, und die 
gebrauchlichste Klassifizierung von Konsonantenvisemen hat nur 12 
Kategorien. Dies bedeutet, daB kein sichtbarer Fehler auftritt, falls das 
System Phoneme verwechselt, welche zu der gleichen Kategorie gehoren. 
Da bei der Bildung von Konsonanten weniger akustische Energie erzeugt 
wird als bei der Bildung von Vokalen, ware es fur einen Spracherkenner 
schwieriger, zwischen Konsonanten zu unterscheiden. Daher ist die 
Abbildung Viel-zu-Eins von Konsonantenphonemen zu Konsonantenvise- 
men fur dieses System dem Zufall iiberiassen. 

Ein Verfahren zur Sprachanalyse wfirde eine Filterbank 10 mit 14-15 
Kanalen verwenden, welche den gesamten Sprachbereich decken. Die 
akustische Energie in jedem Kanal wird integriert unter Verwendung 
eines verlustbehafteten Integrierers 11, und die Ausgabe 12 wird mit der 
Videodatenblockrate (alle 40 ms) abgetastet bzw. erfaBt. Von einem 
Subjekt wird verlangt, daB es wahrend einer Obungssequenz einen voll- 
standigen Satz von Phonemklangen ausspricht, und die Filterbank analy- 
siert die Sprache. Individuelle Sprachklange werden identifiziert, indem 
man einen Schwellwert fur die Energie fiber jedem Satz von Proben 
einfuhrL Die Probenwerte werden in einem Satz von Speicherorten 13 
gespeichert, welche mit dem entsprechenden Namen des Phonems mar- 
kiert werden. Diese bttden einen Satz von Schablonen, welche daraufhin 
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verwendet werden, Phoneme in einem unbekannten Sprachsignal von der 
gleichen Person zu identifizieren. Dies wird getan unter Verwendung 
der Filterbank, um die unbekannte Sprache bei der gleichen Abtastrate 
zu analysieren. Die unbekannte Sprachprobe wird mit jeder der Schablo- 
nen verglichen, indem die Quadrate der Differenzen der entsprechenden 
Komponenten summiert werden. Die beste Obereimthnmung wird durch 
die kleinsten Differenzen gegeben. Damit gibt die Vomchtung einen 
Code aus, der der besten Phonemubereinstimmung entspricht Es wiirde 
auch einen speziellen Code geben, der Stille angibt- 

Wahrend das ubjekt den Satz Phoneme wShrend der Ubungssequenz 
auBerte, wird eine sich bewegende Sequenz von Bildem des Mundgebie- 
tes eingefangen. Durch Festlegen des Anftretens von jedem Phonem 
wird der entsprechende Datenblock in der Sequenz lokalisiert, und eine 
Teilmenge dieser DatenblScke wird verwendet, um ein Codebuch von 
Miindem zu konstruieren. Im Betrieb wird eine NachschlagetabeUe ver- 
wendet, um den entsprechenden Mundcode durch den durch den Sprach- 
analysator erzeugten Code zu finden. Der die Stflle bezeichnende Code 
sollte eine voUTcommen geschlossene Mundposition beinhalten. Eine 
synthetische Sequenz wird erzeugt, indem man den entsprechenden Mund 
dem Gesicht bei einer Videorate uberlagert 

Wie es der Fall bei der synthetisierten Sprache war, kann die Verarbei- 
tung des "Empfangers" lokal oder aus der Feme geschehen. In letzterem 
Fall wird als eine zusatzliche Modifikation vorgeschlagen, daB die bei 
dem Sender gespeicherte Mundbildtabelle eine groBere Anzahl von 
Eintragungen haben kann als normal zu dem Empfanger gesendet wird. 
Dies wurde die Tabelle in die Lage versetzen, Mundformen zu beinhal- 
ten, welche im augemeinen nur selten auftreten, aber in gewissen Arten 
von Sprache hauflg auftreten konnem zom Beispiel Formen, die Klan- 



gen entsprechen, welche nur bei gewissen regionalen Akzenten auftreten. 
Ein Erkennen der spektralen Parameter, welche einera solchen Klang 
entsprechen, wiirde dann den dynamischen Erneuerungsprozess, anf den 
zuvor verwiesen wurde, einleiten, urn die relevanten Mundformen dem 
Empfanger zur Verfugung zu stellen. 

Der Aufbau entsprechender Anzeige-(Empfanger)-Anordnungen fur die 
obigen Vorscblage wird nun weitergehend betrachtet (siebe Fig- 13). 

Ein Datenblockspeicher 100 wird bereitgesteUt, in welchen wahrend der 
Lernphase der empfangene rubende Datenblock von einem Eingabedeco- 
diergerat 101 eingeben wird, wahrend der "Mund'-Speicher 102 die 
gespeicherte Anzahl (sagen wir 25) von Mundpositionen speichert Eine 
Ansleselogik 103 liest wiederholt den Inhalt des Datenblockspeichers und 
fiigt synchronisierende Impulse hinzu, urn einen Videomonitor 104 zu 
speisen. In der Cbertragungsphase werden empfangene Codeworte an 
die Steuereinbeit 105 bereitgesteUt, welche ein ttberschreiben des rele- 
vanten Gebietes des Datenblockspeichers 101 mit den entsprechenden 
Mundspeicherdaten steuert. Es ist klar, daB dieses tjberschreiben schnell 
sein muB, so daS es nicht fur den Betrachter sichtbar ist. Diese Effekte 
konnten verringert werden, indem man das Gebiet zum Abspeichem der 
neuen Daten in kleine Blocke aufteilt und es in einer zufaliigen oder 
vorbestimmten nicht-sequentieDen Art und Weise uberschreibt. Wenn al- 
ternativ die Datenblock-Speicherarchitektur Fenster oder GeisterbOder 
aufweist, dann konnten diese zuvor mit den neu gespeicherten Bfldern 
geladen werden- und hinein- und hinausgeschaltet werden, urn die ent- 
sprechende Bewegung zu erzeugen. In einigen Fallen kann es mogUch 
sein, den Prozess zu vereinfachen, indem man eine x-y Verschiebung der 
Fenster/Geisterbilder verwendet 
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Genu zum Kodieren eines sich bewegenden Bildes einschheSlicb eines mensch- 
Uchen Gesichts (5), welches aufweisr. 

eine Einrichtung (1) zum Empfangen von Videoeingabedaten; 

eine Einrichtung zur Datenausgabe, welche es gestattet, einen Datenblock des 
Bfldes wiederherzustellen; 

eine im Betrieb fur jeden Datenblock des Bfldes angeordnete Identifikations- 
einrichtung zum Identifizieren des Teiles der Eingabedaten, welche dem Mund 
(6) des dargesteUten Gesichts entsprechen und 

(a) um in einer ersten Betriebsphase die Munddatenteile jedes Datenblocks 
mit denen anderer Datenblocke zu vergleichen, um einen reprasentatwen 
Satz (Fig. 3) von Munddatenteilen auszuwahlen, den reprasentativen Satz 
zu speichern und diesen Satz auszugeben; 

(b) . um in einer zweiten Phase die Munddatenteile jedes Datenblocks mit 
denen des gespeicherten Satzes zu vergleichen und zum Erzeugen ernes 
auszugebenden Codeworts, welches anzeigt, welchem Element des Satzes 
die Munddatenteile dieses Datenblocks am meisten ahneln. 

Gerat nach Anspruch % in welchem die Identifflcationsemrichtung im Betrieb 
angeordnet ist, um als erstes denjenigen Teil eines Datenblocks von Eingabe- 
daten zu identifizieren, der dem Mund des dargesteUten Gesichts entspncht 
und zum Identifizieren des Mundteils von nachfblgenden Datenbl5cken dutch 
Antokorrelation mit Daten des einen Datenblocks, 

3 Gerat nach Anspruch 1 Oder % welches angeordnet ist, um im Betrieb wab- 
rend der ersten Phase einen ersten Munddatenteil zu speichern und dann fur 
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die Munddatenteile jedes nachfblgenden Datenblocks ihn mit dem ersten und 
jedem anderen gespeicherten Munddatenteil zu vergleicben, und, falls das 
Eigebnis des Vergleiches einen Schwellenwert uberschreitet, ihn zu speichern 
und auszugeben. 

5 

4. Gerat nach Anspruch 1, 2 oder 3, in welchem der Vergleicb von Munddaten 
duich Subtraktion individueller Bildelementwerte und Summieren der ab- 
soluten Werte der Differenzen durchgefilhrt wird. 

io 5. Gerat nach Anspruch 1, 2, 3 oder 4 einschlieBlich einer Einrichtung zum 
Erhalten der Koordinaten der Position des Gesichts innerhalb nachfolgender 
Datenblocke des Bildes und Erzeugen kodierter Daten, welche diese Koor- 
dinaten darstellen. 

15 6. Gerat nach einem der vorhergehenden Anspruche, in welchem wahrend der 
zweiten Phase in dem Falle, dafl das Ergebnis des Vergleichs zwischen einem 
Munddatenteil und demjenigen des Satzes, welchem es am meisten ahnelt, eine 
vorbestimmte Schwelle uberschreitet, dieser Datenteil ausgegeben und als ein 
Teil des Satzes gespeichert wird. 
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Gerat nach einem der vorhergehenden Anspruche, weiterhin mit einer Identifi- 
kationseinrichtung, welche angeordnet ist, im Betrieb fQr jeden Datenblock des 
Bildes denjenigen Teil der Eingabedaten zu identifizieren, der den Angen des 
dargestellten Gesichts entspricht, und 

(a) in der ersten Betriebsphase die Augendatenteile jedes Datenblocks mit 
denen anderer Datenblocke zu veigleichen, urn einen reprasentativen Satz 
von Augendatenteflen auszuwahlen, diesen reprasentativen Satz zu spei- 
chern und den Satz auszugeben; 

(b) in der zweiten Phase den Augendatenteilen jedes Datenblocks mit denen 
des gespeicherten Satzes zu vergleichen und ein Codewort zu erzeugen, 
welches angibt, welchem Element des Satzes der Augendatenteil dieses 
Datenblocks am meisten ahnelt. 
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Sprachsynthetisator, welcher eine Einrichtung zur Syntbese ernes sich bewe- 
genden Bildes beinhaltet einschlieBlich eines meiischlicben Gesichts, wobei der 
Synthetisator aufweist: 

(a) eine Einrichtung zum Speichern und Ausgeben des Bildes eines Gesichts; 

(b) eine Einrichtung zur Speicherung und Ansgabe eines Satzes von Mund- 
datenblScken (Fig. 3), deren jede dem Mundgebiet des Gesichts entspre- 
chen und eine jeweilige unterschiedliche Mundform darsteilen; 

(c) eine Eingabe zum Empfangen von Codes, welche Worte oder Teile von 
zu sprecbenden Worten identiflzieren; 

(d) eine Sprachsyntheseeinrichtung, welche auf den an der Eingabe empfange- 
nen Code anspricht, urn Worte oder dazu entsprechende Teile von Wor- 
ten zu synthetisieren; 

(e) eine Einrichtung, die eine Tabelle speichert, welche derartige Codes mit 
Codeworten in Beziebung setzt, welche die Munddatenblocke oder Sequen- 
zen derartiger Codeworte identifiziert; und 

(f) eine Steuereinrichtung, welche auf die an der Eingabe empfangenen Codes 
anspricht, urn das entsprechende Codewort oder die Codewortsequenz von 
der Tabelle auszuwahlen und sie synchron mit der Synthese des entspre- 
chenden Wortes oder Teiles eines Wortes von der Sprachsyntheseeinrich- 
tung anszugeben. 

9 Synthetisator nach Ansprucb 8, in welchem die Sprachsyntheseeinrichtung eine 
Einrichtung beinhaltet, die angeordnet ist, um hn Betrieb die Eingabecodes zu 
verarbehen und in Warteschlangen einzureihen, wobei die Warteschlange 
Kennzeichencodes enthalt, welche Anderungen in der Mundfonn anzeigen, und 
in Antwort auf jeden Kennzeichencode zum Senden einer Anzeige an die 
Steuereinrichtung, nachdem der Sprachsynthetisator die Sprache erzeugt hat, 
welche dutch den Eingabecode dargesteDt wird, der dem Kennzeichencode m 



der Warteschlange vorausgebt, wobei die Steuereinrichtung das an die 
synthetisierte Sprache ausgegebene Codewort synchronisieren kann. 

. Gerat zur Synthese eines sicb bewegenden Bildes, wobei das Gerat aufweist: 

(a) eine Einrichtung zum Speidiern und Ausgeben des Bildes eines Gesichts; 

(b) eine Einrichtung zum Speichem und Ausgeben eines Satzes von Mund- 
datenblocken, die jewefis dem Mundgebiet des Gesichts entsprechen und 
eine jeweilige unterschiedliche Mundform darsteUen; 

(c) eine Andioeingabe zum Empfangen von Spxachsignalen und einer Fre- 
quenzanalyseeinrichtung (10, 11, 12), welche auf derartige Signale anspncht 
zum Erzeugen von Sequenzen spektraler Parameter; 

(d) eine Einrichtung (13), die eine Tabelle speichert, welche spektrale Para- 
metersequenzen mit Codeworten in Beziehung setzt, wobei Munddaten- 
bldcke oder Sequenzen davon identifiziert werden; 

(e) eine Steuereinrichtung, die auf die spektralen Parameter anspricht, urn fur 
eine Ausgabe die entsprechenden Codeworte oder Codewortsequenzen von 
der Tabelle auszuwahlen- 

1L. Gerat nach Aospruch 8, 9 oder 10, weiterhin mit einer Datenbloebpeicher- 
einrichtung (100) zam Empfangen und. Speiehern von Daten, welche emen 
Datenblock des Bildes darstellen; 

em e Einrichtang (103) zum repetitiven Auslesen des Datenblockspeicbers zum 
Erzeugen eines Videosignals; und 

eine Stenereinrichtnng (105), welche angeotdne. ist, um im Betrieb die 
ausgewahlten Codeworte zu empfangen nnd in Antwort anf jedes Codewort 
den entsprechenden Munddatenblock auszulesen und ein Emfugen^dieser 
Daten in die Daten, welche der Leseeinrichtnng (103) bemitgestem^ejden. zu 
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